3.2 观察性实验中的倾向得分

#ObservationalStudy #PropensityScore #SRE #IPW

在 IID 采样的假设下, 每个实验单元有四个随机变量 ${X, Z, Y (1), Y (0)}$ . 我们可以分解为 $P {X, Z, Y (1), Y (0)} = P (X) P (Y (1), Y (0) | X) P (Z | X, Y (1), Y (0)),$ 这里

$P (X)$ 是协变量分布;
$P (Y (1), Y (0) | X)$ 是在 $X$ 条件下的结果分布;
$P (Z | X, Y (1), Y (0))$ 是在 $X$ 条件下的实验处理分布, 也叫实验分配机制.

一般来说我们不想为协变量建模, 因为它们是在实验处理和结果之前就存在的背景信息. 如果我们要在结果模型外更进一步, 就需要关注实验分配机制.

倾向得分

定义 $e (X, Y (1), Y (0)) = P (Z = 1 | X, Y (1), Y (0))$ 为 倾向得分 (propensity score). 在强可忽略性下, $e (X, Y (1), Y (0)) = P (Z = 1 | X) .$ 它表示观察到协变量后, 接受实验处理的条件概率.

1 倾向得分作为降维工具

1.1 理论介绍

定理 1.1

如果 $Z ⊥ ⊥ {Y (1), Y (0)} | X$ , 则 $Z ⊥ ⊥ {Y (1), Y (0)} | e (X)$ .

定理说明了在 $e (X)$ 上的条件可以去除 $X$ 带来的所有混杂性; $e (X)$ 将取值从 $X$ 的多维压缩到 $0 \sim 1$ 上的一维值.

证明

我们只需证明 $P (Z = 1 | Y (1), Y (0), e (X)) = P (Z = 1 | e (X)) .$ 而左边为 $\begin{aligned} P (Z = 1 | Y (1), Y (0), e (X)) = E [Z | Y (1), Y (0), e (X)] \\ = & E [E {Z | Y (1), Y (0), e (X), X} | Y (1), Y (0), e (X)] \\ = & E [E {Z | Y (1), Y (0), X} | Y (1), Y (0), e (X)] \\ (强可忽略性) & = & E [E (Z | X) | Y (1), Y (0), e (X)] \\ = & E [e (X) | Y (1), Y (0), e (X)] = e (X) . \end{aligned}$ 右边为 $\begin{aligned} P (Z = 1 | e (X)) = E [Z | e (X)] \\ = & E [E (Z | e (X), X) | e (X)] = E [E (Z | X) | e (X)] \\ = & E [e (X) | e (X)] = e (X) . \end{aligned}$

1.2 倾向得分分层

定理 1.1 启发我们考虑倾向得分分层. 我们从简单的情形开始, 假设倾向得分的取值在 ${e_{1}, \dots, e_{K}}$ 中, $K ≪ n$ . 则定理 1.1 变为 $Z ⊥ ⊥ {Y (1), Y (0)} | e (X) = e_{k}, k = 1, \dots, K .$ 因此我们有一个 SRE: $K$ 个独立的 CRE.

一般来说, 倾向得分是未知且非离散的. 我们可以拟合一个 $P (Z = 1 | X)$ 的模型 (例如 $Z | X$ 的 Logistic 模型) 来获取 $\hat{e} (X)$ . 例如取各个分位数 $e_{k}$ : $Z ⊥ ⊥ {Y (1), Y (0)} | {\hat{e}}^{'} (X) = e_{k}, k = 1, \dots, K .$

关于 $K$ 的取值, 小的话精度不够, 大的话每层数据不够, 一般来说取 $K = 5$ 比较合适.

2 倾向得分加权

2.1 理论介绍

定理 2.1

如果 $Z ⊥ ⊥ {Y (1), Y (0)} | X$ 以及 $0 < e (X) < 1$ , 则 $E [Y (1)] = E [\frac{Z Y}{e (X)}], E [Y (0)] = E [\frac{(1 - Z) Y}{1 - e (X)}],$ 以及 $τ = E [Y (1) - Y (0)] = E [\frac{Z Y}{e (X)} - \frac{(1 - Z) Y}{1 - e (X)}] .$

证明

注意到 $\begin{aligned} E [\frac{Z Y}{e (X)}] = E [\frac{Z Y (1)}{e (X)}] = E [E {\frac{Z Y (1)}{e (X)} | X}] \\ = & E [\frac{1}{e (X)} E {Z Y (1) | X}] \\ (强可忽略性) & = & E [\frac{1}{e (X)} E [Z | X] E {Y (1) | X}] \\ = & E [\frac{1}{e (X)} e (X) E {Y (1) | X}] \\ = & E [E {Y (1) | X}] = E [Y (1)], \end{aligned}$ 同理可证 $E [Y (0)]$ .

从这个定理看出, 仅需一个权重 $e (X)$ (也称它为 重合度), 就可以通过总体来得到不同组的期望.

2.2 逆倾向得分加权估计量

受定理 2.1 启发, 我们用下面的估计量来估计平均因果效应 ${\hat{τ}}^{ht} = \frac{1}{n} \sum_{i = 1}^{n} \frac{Z_{i} Y_{i}}{\hat{e} (X_{i})} - \frac{1}{n} \sum_{i = 1}^{n} \frac{(1 - Z_{i}) Y_{i}}{1 - \hat{e} (X_{i})},$ 这里 $\hat{e} (X_{i})$ 是估计的倾向得分. 我们把它称为逆倾向得分加权估计量 (Inverse propensity score weighting, IPW), 也被称为 Horvitz-Thompson (HT) 估计量. 当然它有很多问题:

HT 估计量缺少不变性

如果改变 $Y_{i}$ 为 $Y_{i} + c$ , 则 ${\hat{τ}}^{ht}$ 变为 ${\hat{τ}}^{ht} + c ({\hat{1}}_{T} - {\hat{1}}_{C})$ , 这里 ${\hat{1}}_{T} = \frac{1}{n} \sum_{i = 1}^{n} \frac{Z_{i}}{\hat{e} (X_{i})}, {\hat{1}}_{C} = \frac{1}{n} \sum_{i = 1}^{n} \frac{1 - Z_{i}}{1 - \hat{e} (X_{i})}$ 可以看作两个 $1$ 的估计量.

通常来说在有限样本下 ${\hat{1}}_{T} - {\hat{1}}_{C} \neq 0$ , 尽管它们的期望是. 这个命题就说明 HT 估计量并不合理, 因为所有结果都加了 $c$ , 因果效应不应该关于 $c$ 改变. 一个简单的修复就是对 ${\hat{1}}_{T}, {\hat{1}}_{C}$ 进行标准化: ${\hat{τ}}^{hajek} = \frac{\sum_{i = 1}^{n} \frac{Z_{i} Y_{i}}{\hat{e} (X_{i})}}{\sum_{i = 1}^{n} \frac{Z_{i}}{\hat{e} (X_{i})}} - \frac{\sum_{i = 1}^{n} \frac{(1 - Z_{i}) Y_{i}}{1 - \hat{e} (X_{i})}}{\sum_{i = 1}^{n} \frac{1 - Z_{i}}{1 - \hat{e} (X_{i})}} .$ 它在 $Y_{i} \to Y_{i} + c$ 下不会改变, 并且实验证明在有限样本下它比 ${\hat{τ}}^{ht}$ 更稳定.

2.3 的一个问题

很多渐近分析要求强重合度条件: $0 \leq α_{L} \leq e (X) \leq α_{U} < 1,$ 也就是真正的倾向得分被严格控制在 $(0, 1)$ 之间. 不过这是一个相当强的假设. 即使它成立, 估计出来的倾向得分也会接近 $0$ 或 $1$ . 此时加权估计量会直接趋于无穷, 因此在有限样本中相当不稳定. 我们可以进行截断 $max [α_{L}, min {\hat{e} (X_{i}), α_{U}}]$ , 或者将 $\hat{e} (X_{i})$ 超出 $[α_{L}, α_{U}]$ 的单元去掉. 一般来说可以取 $(α_{L}, α_{U}) = (0.1, 0.9)$ 或者 $(0.05, 0.95)$ .

3 倾向得分的平衡特性

3.1 理论介绍

定理 3.1

倾向得分满足 $Z ⊥ ⊥ X | e (X)$ . 此外, 对于任何函数 $h (\cdot)$ , 我们有 $\begin{matrix} (3.1) & E [\frac{Z h (X)}{e (X)}] = E [\frac{(1 - Z) h (X)}{1 - e (X)}] . \end{matrix}$ (前提是确实良定).

这个定理不要求可忽略性, 只关于 $Z, X$ . 它说明了在 $e (X)$ 下我们可以将两个总体拉到互相平衡, 是个很好的结果.

证明

首先证明 $Z ⊥ ⊥ X | e (X)$ , 也即 $P (Z = 1 | X, e (X)) = P (Z = 1 | e (X)) .$ 类似定理1.1的证明, 我们能证明左边是 $P (Z = 1 | X) = e (X)$ , 右边是 $\begin{aligned} E [Z | e (X)] & = E [E {Z | X, e (X)} | e (X)] = E [E {Z | X} | e (X)] \\ = E [e (X) | e (X)] = e (X) . \end{aligned}$

然后证明 (3.1). 将 $h (X)$ 看作一个结果, 它有两个相同的潜在结果, 可忽略性 $Z ⊥ ⊥ {h (X), h (X)} | X$ 成立. 根据定理2.1, (3.1) 左右两边的区别是 $Z$ 在 $h (X)$ 上的平均因果效应, $0$ .

3.2 检查协变量的平衡性

在拿到结果前, 我们都要检查是否倾向得分模型足够合理, 让协变量在数据中平衡.
在倾向得分分层中, 我们用了 ${\hat{e}}^{'} (X)$ : $Z ⊥ ⊥ X | {\hat{e}}^{'} (X) = e_{k}$ , $k = 1, \dots, K$ , 因此我们能检查协变量分布在不同倾向得分分层的实验/对照组中是否相同.
在加权中, 我们可以把 $h (X)$ 看作一个假结果, 并估计 $h (X)$ 下的平均因果效应. 因为真正的 $h (X)$ 上的平均因果效应为 $0$ , 估计结果不能显著远离 $0$ . 一个典型的取法是 $h (X) = X$ .